查看原文
其他

有趣丨一篇压根不存在的文献被引用400次?!揭开"幽灵文献"的真面目

2018年9月27日在邮件中收到比利时情报学家鲁索分享的一篇文章,The mystery of the phantom reference(幽灵引用之谜),作者是英国密德萨斯(Middlesex)大学的Anne-Wil Harzing(安妮-威尔.哈尔钦)教授和荷兰莱顿大学的Pieter Kroonenberg教授。


Anne-Wil Harzing和Pieter Kroonenberg发现,爱思唯尔出版集团在作者投稿指南中,举了一个例子说明该如何标注一篇参考文献:

Van der Geer, J., Hanraads, J.A.J., Lupton, R.A., 2000. The art of writing a scientific article. J Sci. Commun. 163 (2) 51-59. [The journal name can also be found with its full title Journal of Science Communications]


其实,这是一篇假想的文献,纯粹是为了举例说明而编出来的,因为如果用某篇真实的文献来举例,似乎就太“高抬”这篇文献了,也不合适。Anne-Wil Harzing没想到,迄至2017年10月24日,这篇世界上不存在的文献在WOS中获得398次引用!


Anne-Wil Harzing想追究一下,这是怎么发生的?

她发现,这类引用的将近90%发生在会议文集收录的论文中(博主:一般说,学术期刊的审稿相对比较严,期刊编辑也会对作者的文献著录有一定的审核;相形之下,会议论文集则没有那么多讲究),但也有将近40篇发生于期刊论文中。那些会议文集的约三分之二属于爱思唯尔出版集团出版的Procedia会议文集系列。


她注意到,Procedia系列被WOS和Scopus双双收录。她分析说,有些研究人员学术水平有限,发期刊论文有困难,对于被WOS和Scopus双双收录的Procedia会议就趋之若鹜了。她对于社会科学与行为科学比较熟悉,就稍微仔细地看了看Procedia Social and Behavioral Sciences系列中引用了那篇幽灵文献的文章,发现其中不少文章从外表看就令人不敢恭维,比如,文章长度不到三页,每一段里只有一句话,英文之差使人不忍卒读,等等。也许爱思唯尔出版集团发现了这些问题,已决定不再出版该系列的会议文集。


进一步,她想看看这些作者是如何引用幽灵文献的。她假定,高被引文献的作者应该比一般的作者要更严谨一些,于是以引用了幽灵文献的398篇文章中被引次数最高的20篇文章(其被引次数都超过10次)为样本。20篇文章中,能检索到全文的只有12篇。其中有8篇是为了支撑一个说法而引用幽灵文献,但幽灵文献的主题与作者想支撑的说法毫无关联。另有3篇,在文章中任何地方都没有引用幽灵文献,但作者将它列入了参考文献。最后一篇最奇怪,文章中没有引用幽灵文献,参考文献中也未列入此文献,不知WOS怎么搞的,居然认为这篇文献引用了幽灵文献。


她还注意到,在12篇能检索到全文的文献中,6篇将幽灵文献列在参考文献清单的第一篇,3篇将其列在清单的最后一篇。于是,她大胆地猜测,恐怕有好些作者将那篇幽灵文献作为模板先粘贴在参考文献清单里,仿照其格式来标注其他参考文献。可是,最后却忘了将作为模板的幽灵文献给删除。


总之,发生了这种事,不是作者太马虎,就是期刊编辑或会议文集编辑太马虎。


博主:作为文章的作者,我们不敢保证自己的文章有多大创新性,但是,起码的严谨性总该有吧。连起码的严谨、仔细都做不到,就不配做学者。


博主:我刚发现,去年搜狐上就有对此文的更完整的介绍,如下:

注:本文来源于2017年10月26日Harzing.com上的一篇文章,原作者为Anne-Wil Harzing,原文标题"The mystery of the phantom reference"。文章略有删改。下文中的“我”是作者Anne-Wil Harzing的朋友Pieter Kroonenberg,一名荷兰的退休统计学教授。


在准备给一本Elsevier期刊投稿的时候,这本杂志的作者指南中的一篇参考文献引起了我的兴趣:

Van der Geer, J., Hanraads, J.A.J., Lupton, R.A., 2000. The art of writing a scientific article. J Sci. Commun. 163 (2) 51-59. [The journal name can also be found with its full title Journal of Science Communications]


这篇文章的一作是我之前的同事,我们统计学院里专注于实验心理学和多元分析的Van de Geer教授。“原来他还有这样的一面呀”,我心里想,“他竟然会对科学写作指导规范有所研究”。


然而,再仔细一看:同事的名字是Van de Geer,而这篇文章的作者是Van der Geer。拼错了么?还是认错人了?不管怎样, 我google了一下这篇文章,却怎么也找不到。


有一本意大利期刊的名字很相近,但名字是Journal of Science “Communication” 而不是 “Communications”,而且这个杂志2002才创刊,不会在2000年就发表了文章。再仔细看看文章所在的卷数:163卷


在学术规范这个学科领域,通常需要很久才能积累如此数目的卷数。还有一点奇怪的就是,文章的二作似乎就只发表过这么一篇文章,这对于一个研究写作规范的学者来说很不寻常。


长话短说,我最后发现:这篇文章根本就不存在!它仅仅是一篇为了展示Elsevier这本杂志的引用格式而存在的“幽灵文献”。


尽管如此,我发现在Web of Science上这篇文章有近400次引用,而在Google Scholar上引用次数甚至更多。我知道很多科研人员并不把参考文献当成一件严肃的事情来对待。但是,论文里引用不存在的文献,又是怎样的一种体验呢?我决定来一探究竟。


第一步:来源以及Web of Science的引用记录


咱们一起来从这篇有疑问的参考文献本身看起。我刚才提到了,这篇“幽灵文献”最初是用来展示Elsevier这本杂志的规范引用格式(下图;请注意:最近Elsevier已经把这篇文献的发表年份从2000年改成了2010年)。


用下面的关键词搜索Web of Science数据库,我们可以搜索到398次引用了2000年版本文献的记录 (搜索日期:2017年10月24日)。



第二步:引用“幽灵文献”的文章有何特征?


我猜可能有某一种特定类型的文章特别喜欢引用这样一篇不存在的文献。事实证明我的想法是对的:90%引用了这篇文献的文章都是Proceedings paper (下图)。

而在这些Proceedings paper中,2/3的文章都发表在Procedia conference volumes中 (下图),这是Elsevier发表的一个涵盖25个学科领域的会议论文集。

尽管Elsevier发表了这些文章,但是论文的选择、以及同行评审归根到底还是会议组织者的责任。


在很多大学中,只有被一些特定数据库收录的文章才能够用作职称评选,因此发表在Procedia是一件相当吸引人的事情——Procedia上的文章能够被Scopus和Web of Science等数据库收录,而同时又不像Nature,Science那样的顶级期刊一样遥不可及。


Web of Science收录了Procedia系列从2009年开始发表的将近85,000篇文章,其中2/3都发表在Procedia Social and Behavioral Sciences 或者 Procedia Engineering 系列中,而这两个系列是收录这篇“幽灵文献”的主力军 (上图可见)。


从2017年2月起,Elsevier停止接收一些学科领域的proposals (包括刚刚提到的这两个领域)。这或许也是为什么有74篇文章在2016年引用了这篇“幽灵文献”,而在2017年只有19篇 (下图)。


为了看看这些文章的质量如何,我挑选了一系列Social science领域的文章(我的老本行),发现不是所有文章都符合这个领域会议的要求。甚至有些文章仅仅不到3页,由一堆不连贯的句子拼凑而成,并且每句话都另起一段。


这些文章的英语水平也相当差,或许是因为大多数作者来自于中国、马来西亚、土耳其、俄罗斯、罗马尼亚以及伊朗,在这些国家英语并不是官方语言或是常用的语言(尤其在Social Science领域)。


同时,这些文章的参考文献格式也不完整、不规范。或许以上是Elsevier停止接收这些领域Proceedings paper的原因。


第三步:“幽灵文献”被文章中哪句话引用了?


无论作者来自于哪个国家、说什么语言、做什么研究、发表在什么地方,他总是需要在文章中的某一句话中引用这篇文献的。于是,我的下一步便是看看这篇“幽灵文献”究竟被文章中的哪句话引用了。


我找到了20篇引文数量最多的文献 (他们都有10篇以上的参考文献,而且都引用了这篇不存在的文章) ,来确保他们至少在发表前有质量控制。


在这20篇文章中,17篇发表于Elsevier,15篇为期刊论文 (远高于所有398篇文章中11%的期刊论文比例了) 。


我能够获取这20篇文章中12篇的全文。在这12篇文章中,6篇“幽灵文献”作为参考文献列表中的第一篇,3篇作为最后一篇,2篇位居中间的某个位置,1篇根本没出现在参考文献列表中......


在8篇文章中(#1, 2, 4, 5, 8, 12, 16, 19),这篇不存在的文献被引用来支持与学术写作根本不相关的论证 (#4和#5根本就是同一篇文章在不同地方发表了两次,并不是我们把截图搞错了)。


在另3篇文章中(#14, 15, 20),这篇参考文献没有在文章中出现,而仅仅被列在了参考文献列表中。在#18中,这篇文献既没有出现在文章中,也没有出现在参考文献列表中,我们也不得而知为什么Web of Science会报告这篇文章引用了这篇“幽灵文献”了。


◆ 文章1: Separation & Purification Technology杂志文章


◆ 文章2:Journal of Electroanalytical Chemistry杂志文章


◆ 文章4:Spectrochimica Acta Part A杂志文章


◆ 文章5:Journal of Molecular Structure杂志文章


◆ 文章8:Materials Letters杂志文章


◆ 文章12:Nano Energy杂志文章


◆ 文章14:Procedia Food Science会议文章

(文章正文中没有出现参考文献16)

◆ 文章15:Procedia Social and Behavioral Sciences 会议文章

(正文中没有出现Van der Geer的这篇文献)

◆ 文章16:Central European Journal of Chemistry期刊文章

◆ 文章18:Procedia Social and Behavioral Sciences会议文章

Van der Geer文章既没有出现在文章中,也没有出现在参考文献列表中

◆ 文章19:Procedia Computer Science会议文章


◆ 文章20:Procedia Social and Behavioral Sciences会议文章

(正文中没有出现Van der Geer的这篇文献)


第四步: 追根溯源 大家究竟为什么引用它?


这篇“幽灵文献”出现在参考文献列表第一个、或最后一个的概率之高,让我不禁觉得,可能是作者忘记把这篇引用从列表中删掉了。然而,为什么他们最开始要加上这样的一篇文献呢?


这时,我发现了一个和Renewable Energy有关的会议依然在其官网上列出了投稿的模板。我恍然大悟:他们一开始根本没有主动加上这篇“幽灵文献”!而是……


我们一起来看看这个模板:模板首先列出了整篇文章的格式,包括标题、作者、所属机构等。


模板的最后是致谢、附录以及引用。在引用的部分,模板中加上了这篇Van der Geer的文章,作为引用格式的范例。

显然,作者应该替换掉模板中的文字并换上自己的内容。然而,一些母语不是英语、而发表文章经验又较少的作者可能并没有弄懂这点。也可能他们填上了自己的引用后,忘记了删掉这篇引用,证据就是#15和#20中的作者把模板中其他范例(Strunk Jr W et al.的书、Mettam GR et al.的章节)也留在了参考文献中。


收尾:情有可原?还是严惩不贷?


在85,000篇Procedia的会议文章中,只有几百篇包括了这篇“幽灵文献”。总的来说,只有不到0.5%的Procedia的会议文章犯了这个错误,可以算是一个很小的误差了。


同时,他们犯错的原因也仅仅没有理解模板的含义、或是忘了删除部分模板内容,总的来说是无可厚非的。


然而同时,我们也看到会议文章通常没有、或者仅仅有很少的质量控制。他们的主要目的可能也不是发表一篇高质量的研究进展。


我看了看最近的一些会议文章,发现大部分都是一些初入科研领域、没有什么经验的研究人员写的。在Procedia conference proceedings发表这样一篇文章要交很多版面费,然而能发表出来并被Web of Science收录也算很值得了。


比较让人困惑的是,大概40篇左右的文章发表在了非常著名的期刊上。他们大部分都是Elsevier期刊,或许有着类似的模板。然而,我不清楚的是,这篇“幽灵文献”如何能被引用,而且还是作为半导体、电凝术、血压、癌症耐药的论据?


我猜可能是它夹杂在数十篇引用文献中,让作者和编者很难发现,也可能是参考文献格式软件或校读文献软件的一个bug。毕竟和Elsevier 2006年以来发表的数千篇文章比,40篇并不多。


总结


归根结底,论文里引用不存在的文献是因为不走心的写作和质量控制。犯错的概率很小,然而很多人为了评职称等原因发表了大量这种比较“水”的文章,终于让我们发现了这个小概率错误。


我们应该庆幸,这篇“幽灵文献”毕竟是不存在的。如果这篇文章本身存在的话,那也许问题就更大了。对于学术研究这片汪洋大海来说,400次不准确的引用仅仅是微不足道的一个小水滴。然而对于正在看这篇文章的你来说,对于正在给Elsevier期刊投稿的我来说,对于成千上万的学者、研究人员来说,400次的引用或许足以区分优秀或平庸。

总之,这篇文章的目的是提醒大家:对于看起来奇怪的参考文献一定要足够重视。付出一些应尽的努力,写的时候更走心一些,或者让有文献统计学功底的人来帮你审核一下。

If something looks fishy, it probably IS fishy! (如果它看起来可疑,那它可能就是很可疑!)

原文地址

https://harzing.com/publications/white-papers/the-mystery-of-the-phantom-reference

参考文献

1. Van der Geer, J., Hanraads, J.A.J., Lupton, R.A., 2000. The art of writing a scientific article. J Sci. Commun. 163 (2) 51-59.

2. Adler, N.; Harzing, A.W. (2009) When Knowledge Wins: Transcending the sense and nonsense of academic rankings, The Academy of Management Learning & Education, vol. 8, no. 1, pp. 72-95.

3. Harzing, A.W. (2002) Are our referencing errors undermining our scholarship and credibility? The case of expatriate failure rates, Journal of Organizational Behavior, vol. 23, no. 1, pp. 127-148.


版权声明

来源:科学网武夷山博客

免责声明:本次分享仅出于资讯信息传播需要,不涉及任何商业目的,如有侵权请联系后台删除,版权归原作者所有。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存